home *** CD-ROM | disk | FTP | other *** search
/ Software Vault: The Diamond Collection / The Diamond Collection (Software Vault)(Digital Impact).ISO / cdr11 / gensrch.zip / GENSRCH.DOC < prev    next >
Text File  |  1994-10-24  |  27KB  |  615 lines

  1.                                GENSRCH
  2.                            REVISION 2.0.1
  3.  
  4.     This document is broken up into several sections:
  5.  
  6.     INTRODUCTION
  7.     COPYRIGHT
  8.     GENSERV
  9.     DISADVANTAGES
  10.     PROGRAM DESCRIPTIONS
  11.     INSTALLATION
  12.     HOW TO USE WITH A COLLECTION OF GEDCOM FILES
  13.     USING WITH DATA ON A CD-ROM
  14.     DEMOS
  15.     WHAT TO EXPECT IN REAL LIFE
  16.     WHAT'S A GEDCOM FILE
  17.     WHAT'S A SOUNDEX
  18.     THE AUTHOR
  19.  
  20. INTRODUCTION
  21.  
  22.     A set of tools for genealogical research using gedcom files.  Lets
  23.     you search for common ancestors between different gedcom files.  If
  24.     you don't know what a gedcom file is, look at the end under "What's
  25.     a gedcom file".
  26.     
  27.     I guess the best way to explain it is a simplified example.  I'll
  28.     leave some of the set up steps explained later out, just to give you
  29.     the concept.  By the way, this example is a true story.
  30.     
  31.     Let's say, you belong to a genealogy society (club) and have a
  32.     collection of gedcom files from many of the people in the club.  You
  33.     want to find out if any of the club members have common ancestors
  34.     with you, or between each other.  After some initial setup which is
  35.     done when you add a new gedcom file to your collection, you issue
  36.     the command:
  37.     
  38.     gensrch Your_database_name *.ndx
  39.     
  40.     Or to send the results to a file instead of your screen:
  41.     
  42.     gensrch Your_database_name *.ndx > results
  43.     
  44.     
  45.     Your_database_name is typically the name of your gedcom file when
  46.     you set up your total database of gedcom files.
  47.     
  48.     The results look something like this:
  49.     
  50. Search for matches to database johns1
  51. ==============================================================================
  52. LAST, First        INDI#  Spouse name      SNDX  Birthdate   Deathdate Database
  53. ----------------- ------ ----------------- ---- ----------- ----------- -------
  54. =-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-
  55. Possible match for 
  56. Mathis, Frances    495    Coleman, R       M320                         johns1
  57. ----------------------------------------
  58. MATHIS, Frances    1902   COLEMAN, R Sr.   M320 20 Feb 1749        1809 coleman2
  59. =-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-
  60. Possible match for 
  61. SINGLETARRY, LYDIA 349    LADD, DANIEL     S524                         johns1
  62. ----------------------------------------
  63. SINGLETERY, Lydia  456    LADD, Daniel     S524 30 Apr 1648             pricej1
  64. =-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-
  65. Possible match for 
  66. Thayer, Cicely     394    DAVIS, James     T600             28 May 1673 johns1
  67. ----------------------------------------
  68. THAYER, Cicely     255                     T600        1595 28 May 1673 thayer
  69.  
  70.     My gedcom file's name is johns1.ged, so my database name is also
  71.     johns1. The report says that in johns1.ged there is a person
  72.     (Mathis, Frances) who looks to be the same as in the coleman2.ged.
  73.     Also, I match people in pricej1.ged and thayer.ged.
  74.     
  75.     Once you know this, you can load coleman2.ged in your genealogy
  76.     program (PAF, ROOTS, BK, etc.) and look to see if the coleman2
  77.     database goes back further than yours.  I suppose you could even
  78.     talk to Coleman, but that's rather archaic don't you think?
  79.     
  80.     Notice that I didn't tell the program to look for Mathis, or
  81.     Thayer's. It looked at each individual that came from my gedcom
  82.     file, and looked for a match against each individual that came from
  83.     other gedcom files.  It does soundex compares on the names, so exact
  84.     spelling is not required. It does approximate matching on dates.  It
  85.     understands abbreviations and can match an abbreviated name to a
  86.     fully spelled name.  If you don't know what soundex is, look at the
  87.     end under "What's a soundex".
  88.  
  89. COPYRIGHT
  90.  
  91.     Gensrch is copyrighted software. However,  you are encouraged to
  92.     copy  and share  it.  I place no restrictions on it's use for
  93.     non-profit people and organizations.
  94.  
  95.     However, if it is used for commercial purposes, I want a piece of
  96.     the action.  It would be nice to break even.
  97.  
  98. GENSERV
  99.  
  100.     Genserv (not gensrch) is a system on the internet that was started
  101.     by Cliff Manis. It is his own collection of gedcom files along with
  102.     utilities to access them.  People like you and I, can access
  103.     genserv's database in a similar manner to what you do with your
  104.     local database.
  105.  
  106.     What's the price?  A copy of your gedcom file.  That's all.  No
  107.     money.  You have just added to the value of genserv as a research
  108.     tool by adding your gedcom file.
  109.  
  110.     The genserv system was the reason my gensrch software was developed,
  111.     and portions of it have been ported to his genserv machine.  Almost
  112.     everything you can do with my gensrch software, you can do via email
  113.     with genserv, and with a much larger collection of gedcom files.
  114.  
  115.     Genserv, like gensrch is a free service, and I would like to
  116.     encourage anyone with internet access to join the genserv crowd.
  117.  
  118.     At the time this document was written it is being moved to
  119.     Genserv@GenTech.Org.  By the time you read this, is should be
  120.     up and running again.  Send mail to Genserv@GenTech.Org for
  121.     requesting material about the server.
  122.  
  123. DISADVANTAGES
  124.  
  125.     With a large local collection of gedcom files, no matter how you
  126.     work it, it's a lot of data to wade through, and a slow process.
  127.     Fortunately you don't have to be there.  Go to lunch.
  128.  
  129.     The larger your collection, the more disk space you need for it.
  130.  
  131. PROGRAM DESCRIPTIONS
  132.  
  133.     All of these programs will give a fairly large help screen if you
  134.     just invoke them with no parameters.  All options flags will be
  135.     displayed.
  136.  
  137.     1.  ged2srch.exe
  138.         Scans a gedcom file, and generates one line of information about
  139.         each person in it, like this:
  140.  
  141. CORLISS, Ann       237    ROBIE, John      C642  8 Nov 1657 16 Jun 1691 johns1
  142.  
  143.         It contains several fields.  The first is the persons name,
  144.         CORLISS, Ann.
  145.  
  146.         Next is a number that just indicates when he/she was encountered
  147.         in the gedcom file.  It sometimes is the same as the rin number
  148.         used by your genealogy program.
  149.  
  150.         The third field is the spouses name.
  151.  
  152.         Next is the soundex code for the person.
  153.  
  154.         Next is birth date, and death date.
  155.  
  156.         Finally, the database name.  There are two ways you as the
  157.         administrator of this database can decide the database name. The
  158.         easiest is to use the gedcom file name decide it with the -g
  159.         option.
  160.  
  161.         ged2srch -g *.ged > tmp
  162.  
  163.         This command will scan all the gedcom files you have in this
  164.         directory, and generate one liners for each person in each file
  165.         and the database name will be the gedcom file name minus the
  166.         ".ged".
  167.  
  168.         If you don't use the -g option, you must specify a database
  169.         name.
  170.  
  171.         ged2srch johns1 c_demo.ged > tmp
  172.  
  173.         will generate data with the database name johns1.
  174.  
  175.     2.  brkmail.exe
  176.         Breaks the possibly large file generated by ged2srch into a
  177.         bunch of smaller files called a.ndx, b.ndx, ... z.ndx.  Each
  178.         containing surnames with the same starting letter as the
  179.         starting letter of the file.  It's called brkmail because I used
  180.         to get this information from genserv by email and had to BReaK
  181.         the MAIL messages up into these files.
  182.  
  183.     3.  srtrpt.exe
  184.         Sorts the a.ndx ... z.ndx files.  Puts them into soundex order,
  185.         and deleted duplicate lines.  This makes gensrch run faster, but
  186.         is not absolutely necessary.  None of the sorts done by these
  187.         programs have a memory limitation.  As long as there is disk
  188.         space for the temporary files necessary there should be no
  189.         problems with large file.  Of course the bigger they are, the
  190.         longer it takes to sort.
  191.  
  192.     4.  gensrch.exe
  193.         The final report generator.  Searches for matches.  Several
  194.         options of interest.  You can specify how close dates must
  195.         match, plus or minus days, months, years.
  196.  
  197.         You can specify how close the names must match.  That one takes
  198.         some explaining.  All names, both first and last are tested with
  199.         soundex compares, not string compares.  Soundex is a neat thing
  200.         because it allows slight changes in the spelling (Corliss and
  201.         Corlisse) to still match.  Sometimes though, it can be to
  202.         lenient. For example CROWELL and CURLESS have the same soundex
  203.         code.  The -F x specifies how many letters the spelling may
  204.         differ.  I like to use -F 3.
  205.  
  206.         The -M option is nice if you are getting lots of matches.  It
  207.         only shows matches with More than me.  In other words, if it
  208.         finds a match that has dates or spouse names, etc. that your
  209.         data does not have, it will display this match.  It will not
  210.         display a match if it appears that you have all the data the
  211.         other has.
  212.  
  213.         The -g option allows you to search a gedcom file that you
  214.         haven't added to your ndx files yet, and check it against them.
  215.         For example, your neighbor brings over his gedcom file, and you
  216.         want to do a quick check to impress him before going through all
  217.         the steps to add him permanently to your database.
  218.  
  219.         gensrch -g c_demo.ged *.ndx
  220.  
  221.         For optimization reasons this option is more picky.  It will
  222.         only search an ndx file if it's name starts with the same letter
  223.         as the surnames it is looking for.  That is why, for instance,
  224.         c_demo.ndx is named as it is, starting with a c.  That's what
  225.         brkmail does anyway, so it should be no problem.
  226.  
  227.         One common mistake with the -g option is to use a gedcom file
  228.         that has already had its data merged into the ndx files.  This
  229.         will result in a zillion matches between the gedcom data and the
  230.         duplicate data already in the ndx files.
  231.  
  232.         The -g option causes gensrch to create a database name for the
  233.         new gedcom file in upper case.  fred.ged will result in a
  234.         database name of "FRED", not "fred".  Normally the database
  235.         names in the ndx files are lower case.  This is so you won't
  236.         have to be carefull what the name of your new gedcom file is.
  237.  
  238.         Gensrch will generate one ndi file for each ndx file it
  239.         searches. This is to make searches run faster.  It will remake
  240.         the ndi file if it not there, or it detects that the ndx file
  241.         has been updated by checking the dates of the two files.  After
  242.         running the demo, "gensrch johns1 c_demo.ndx", you will find a
  243.         c_demo.ndi file now exists.
  244.  
  245.         Gensrch is being proposed for a Non profit CD-ROM project
  246.         (Acadian), and one option was added for that environment.  The
  247.         -I (Upper case) option makes it ignore the dates for the ndi
  248.         file.  This is just paranoia on my part.  I was concerned that
  249.         the dates might not get installed properly on the CD, and the
  250.         program would choke each time because it could not do anything
  251.         about it.
  252.  
  253.     5.  combsrch.exe
  254.         A pretty printer for gensrch.  Takes a gensrch report like this:
  255.  
  256. Possible match for 
  257. CORLISS, Hildah    11                      C642 18 Nov 1661             C_DEMO
  258. ----------------------------------------
  259. CORLISS, Hildah    240                     C642 18 Nov 1661             johns1
  260. =-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-
  261. Possible match for 
  262. CORLISS, Hildah    11                      C642 18 Nov 1661             C_DEMO
  263. ----------------------------------------
  264. CORLISS, Hulda     508    KINGSBURY, S     C642 18 Nov 1661        1720 pricej1
  265. =-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-
  266. Possible match for 
  267. CORLISS, Hildah    11                      C642 18 Nov 1661             C_DEMO
  268. ----------------------------------------
  269. CORLISSE, Hulda    239    KINGSBURY, S     C642 18 Nov 1661 26 Sep 1698 johns1
  270.  
  271.         Which is 3 different matches to the same Hildah Corliss, and
  272.         combines the matches so that C_DEMO's person CORLISS, Hildah is
  273.         mentioned once like the following.
  274.  
  275. - - =-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-
  276. Possible match[s] for
  277. CORLISS, Hildah    11                      C642 18 Nov 1661             C_DEMO
  278. ----------------------------------------
  279. CORLISS, Hildah    240                     C642 18 Nov 1661             johns1
  280. CORLISS, Hulda     508    KINGSBURY, S     C642 18 Nov 1661        1720 pricej1
  281. CORLISSE, Hulda    239    KINGSBURY, S     C642 18 Nov 1661 26 Sep 1698 johns1
  282.  
  283.     It can be used to process the output of gensrch in a file like this:
  284.  
  285.     gensrch johns1 c_demo.ndx > results
  286.     combsrch results > results2
  287.  
  288.     Or it can be used as a filter, eliminating the two step process like this:
  289.  
  290.     gensrch johns1 c_demo.ndx | combsrch > results
  291.  
  292.  
  293.     5.  soundex.exe
  294.         Just a utility to echo the soundex code for a name. example:
  295.     
  296.         soundex smith 
  297.         Soundex for smith is S530
  298.     
  299.     6.  deletedb.exe
  300.         Scans through ndx files, and deletes the specified database.
  301.         For instance you could delete all data from johns1, leaving all
  302.         other data intact.  This lets you delete all of johns1 gedcom
  303.         data so you can replace it with a new copy without having to
  304.         recreate the whole database.
  305.     
  306.     7.  cleanrpt.exe
  307.         Scans files with ndx type data, and prints the valid report ndx
  308.         style lines.  This has the effect of stripping out any mail
  309.         headers, etc.  If you are creating all your own data locally,
  310.         and not getting it from genserv, you won't need this.
  311.     
  312.     8.  Surnames.exe
  313.         Since I belong to a genealogical society which wants a surname
  314.         list, I cranked this out to generate a surname list from the
  315.         gedcom files. It generates a list like the following which I
  316.         format into a multi column report with my word processor.
  317.     
  318.             COOPER            11    johns1
  319.             CORLISS           2     corliss
  320.             CORLISS           1     johns1
  321.             DALTON            5     johns1
  322.             DAVIDSON          6     johns1
  323.             DAVIS             15    corliss
  324.             DAVIS             999   johns1
  325.             DAY               5     johns1
  326.     
  327.         Note that even if johns1 has a hundred Corliss's, it will only
  328.         show up in this list once.  The number is the number of times
  329.         that surname was encountered, up to a max of 999.  I wanted to
  330.         get a multi column report with my word processor, so I had to
  331.         put a limit somewhere.  Anything over 999 is just lots.
  332.     
  333.     9.  c_demo.ged
  334.         A demo gedcom file.  See the demo section.
  335.  
  336.     10. c_demo.ndx
  337.         A demo ndx file.  See the demo section.
  338.  
  339. INSTALLATION
  340.  
  341.     Not much to it.  You can put the programs in your current directory
  342.     and just run them there, or do the following.
  343.  
  344.     Put the programs where you put your other utilities.  Under DOS, the
  345.     command "path" will print out something like this:
  346.  
  347. PATH=C:\BIN;C:\DOS;C:\WINWORD;C:\EXCEL;C:\WINDOWS
  348.  
  349.     Each part of that statement separated by semicolons is a directory
  350.     that is searched for programs each time you type a command on the
  351.     DOS command line.  In the above case, if you tried to run the DOS
  352.     editor by typing the command "edit gensrch.doc", DOS would look for
  353.     edit in the c:\bin directory, then in c:\dos directory where it
  354.     would finally find it.
  355.  
  356.     Any directory included in your path will do fine although in the
  357.     above case dos, winword, excel, and windows should be avoided just
  358.     to keep everything clean.   The path definition is normally defined
  359.     in your autoexec.bat, and you can add directories if you wish.
  360.  
  361.     The gensrch will search for the environmental variable "TMP" or
  362.     "TEMP" for a place to put temporary files. For example, in your
  363.     autoexec.bat
  364.  
  365.     Set TMP=C:\tmp
  366.     or
  367.     Set TEMP=C:\tmp
  368.  
  369.     Sets this variable.  Don't forget to create the directory.
  370.  
  371.     If you don't have the variable defined, the temporary files will
  372.     just end up in your current directory.  Normally they are deleted
  373.     when the program exits, except when you control c out of a program,
  374.     they will be left behind.
  375.  
  376.     You can see if it is defined by the DOS command "set". It will dump
  377.     all the environmental variables to the screen.  You can browse
  378.     through them looking for this variable.
  379.  
  380. HOW TO USE WITH A LOCAL COLLECTION OF GEDCOM FILES
  381.  
  382.     1.  Place a copy of all your gedcom files in one directory.
  383.  
  384.     2.  ged2srch -g -v *.ged > tmp
  385.         Creates the style of reports required by gensrch from the gedcom
  386.         files in the file tmp.
  387.  
  388.     3.  brkmail tmp
  389.         Takes the tmp file, and breaks it up into a.ndx, b.ndx, ...
  390.         z.ndx using the first letter of the surname.  You might want to
  391.         run brkmail in a different directory than the one you keep your
  392.         gedcom files, to keep things from getting cluttered.
  393.  
  394.     4.  When you have all your index files built:
  395.  
  396.         gensrch your_database_name *.ndx > matches
  397.  
  398.        in my case it's: 
  399.        gensrch johns1 *.ndx > matches
  400.  
  401.         The -M "More than me" option will create a much smaller matches
  402.         file. The -p "Progress" option will send the reports to the
  403.         screen as well as to the matches file.
  404.  
  405.     5.  Take a coffee break :-)
  406.  
  407.     6.  Browse through the matches file.  Hopefully, it will have found
  408.         other people's data who are searching your line, and often have
  409.         dates, etc. that you don't.
  410.  
  411.         Something like this.  Note, I am johns1.  Looks like pricej1 has
  412.         some data I am missing.  Think I'll send him some mail.
  413.  
  414. Search for matches to database johns1
  415. =-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-
  416. Possible match for
  417. AYER, Joseph       368    CORLISS, Sarah   A600                         johns1
  418. ----------------------------------------
  419. AYER, Joseph       516    CORLISS, Sarah   A600        1660        1710 pricej1
  420. =-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-
  421. Possible match for
  422. BROWN, Abigail     329    HARTSHORN, John  B650                         johns1
  423. ----------------------------------------
  424. BROWN, Abigail     575    HARTSHORN, John  B650                    1694 pricej1
  425.  
  426.        Delete obvious non matches.
  427.  
  428. USING WITH DATA ON A CD-ROM
  429.  
  430.     Some of the features on this release were developed to work with
  431.     Yvon L. Cyr's Acadian/French Canadian CD-ROM project.  This project
  432.     is basicly a contribution of anyone's gedcom file who has
  433.     Acadian/French Canadian ancestors.  The gedcom files will be on the
  434.     CD-ROM.  There will probably be gensrch results files showing
  435.     matches between people who submitted to the CD-ROM on the CD-ROM.
  436.     The a.ndx - z.ndx and associated ndi files will be on the CD-ROM as
  437.     generated by ged2srch, brkmail, and srtrpt.
  438.  
  439.     Those who submitted to the CD-ROM will be able to view their match
  440.     results with any ascii editor since the matches will be on the
  441.     CD-ROM.
  442.  
  443.     But what about those of us who didn't get our gedcom files on the
  444.     CD-ROM? Is it useful to us?   Yes!  That's where the gensrch -g
  445.     option comes in.  With the gensrch -g option, you can scan for
  446.     matches between your newly created gedcom file you made at home,
  447.     with all the gedcom files on the CD-ROM.
  448.  
  449.     There are a few problems and their solutions you must be aware of
  450.     first when working with CD-ROM based data.   One of which is, a
  451.     CD-ROM is slow.  Sorry, Can't do much about that.  Another is that a
  452.     CD-ROM contains huge amounts of data.  Lots of data takes lots of
  453.     time to scan.  Be patient.  Go to lunch.  Go to bed.  Check it in
  454.     the morning.
  455.  
  456.     The following rules for working with CD-ROM based data would also
  457.     hold true with any write protected data such as that on a write
  458.     protected floppy.
  459.  
  460.     The set of gensrch utilities create temporary files while they are
  461.     doing their work.  If the environmental variable "TEMP", or "TMP"
  462.     are defined, they tell the program where to put these temporary files.
  463.     If they are not defined, the temporary files end up in the current
  464.     directory.  If that current directory happens to be the CD-ROM,
  465.     things just won't work, so see the section on INSTALLATION.
  466.  
  467.     There are way's around this problem without messing with "TEMP" or
  468.     "TMP" if you wish.  Let's say for example that your CD-ROM drive is
  469.     g: and your regular hard drive is c:.  Lets also say that you are in
  470.     a directory on your hard drive c: called "george", or anything else
  471.     you want to call it. From c:\george, you issue the command:
  472.  
  473.     gensrch -g myged.ged g:*.ndx > results.txt
  474.  
  475.     This searches all the ndx files on the g:CD-ROM for matches to your
  476.     c:gedcom file, and puts the results in your c:results.txt.  Note
  477.     that in this case, your current directory is c:\george, which is not
  478.     write protected, and temporary files can be created without
  479.     problems.
  480.  
  481.     With "TEMP" or "TMP" defined properly you could work from the CD-ROM
  482.     directly.  For example:
  483.  
  484.     g:
  485.     gensrch -g c:myged.ged *.ndx > c:results.txt
  486.  
  487.     In this case the current directory is on the CD-ROM drive, but
  488.     "TEMP" tells the program to put the temporary files in a place
  489.     typically like c:\temp.  No problem.  Note that you had to specify a
  490.     writable destination for your results.
  491.  
  492.     If you get some sort of error, check to see if you are trying to
  493.     create files on the CD-ROM, which of course you cannot do.
  494.  
  495. DEMOS
  496.  
  497.     There are two files included with the package that are only there
  498.     for demo purposes.  c_demo.ndx and c_demo.ged
  499.  
  500.     c_demo.ndx is the type of data you would get after running ged2srch
  501.     against your gedcom files, and brkmail against the output of
  502.     ged2srch.
  503.  
  504.     It is an ascii file, so you can look at it with any ascii editor.
  505.  
  506.     Of course I cherry picked data that would contain matches, but
  507.     that's what demos are about.
  508.  
  509.     To try it out, type the command:
  510.  
  511.     gensrch johns1 c_demo.ndx
  512.  
  513.     It should dump a bunch of matches to the screen.  The same command
  514.     followed by the pipe to a file syntax "> results", like this:
  515.  
  516.     gensrch johns1 c_demo.ndx > results.txt
  517.  
  518.     Will get the match data into the file results.txt which you can
  519.     print or look at with any ascii editor.
  520.  
  521.     Once you have a large collection of gedcom files merged into ndx
  522.     files, you might run into the situation where someone brings you
  523.     their gedcom file, and you want to run a quick check for matches
  524.     without going through all the ged2srch, brkmail steps.  The -g
  525.     option does this.
  526.  
  527.     gensrch -p -g c_demo.ged c_demo.ndx > results.txt
  528.  
  529.     First it generates ndx style data from your gedcom file, then it
  530.     checks this new data against your old ndx files.  The -p option sent
  531.     a second copy of the match information to your screen so you could
  532.     tell something was happening.
  533.  
  534.     Try this one:
  535.  
  536.     gensrch -p -g c_demo.ged c_demo.ndx | combsrch > results2.txt
  537.  
  538.     This did the same as the previous gensrch, but ran it through a
  539.     "Pretty Printer".  Look at the difference between results.txt, and
  540.     results2.txt.
  541.  
  542.     Actually, this -g option was developed to allow searching ndx files
  543.     that were placed on a CD.  You can't add your gedcom data to the
  544.     CD-ROM's data, so you must use the -g option.
  545.  
  546. WHAT TO EXPECT IN REAL LIFE
  547.  
  548.     Not much at first!  Remember, there are a lot of people out there
  549.     who are NOT your ancestors.  The odds against your neighbors gedcom
  550.     file containing the same ancestors as yours are very high.  The
  551.     trick is to collect a lot of gedcom files, and reduce the odds.
  552.  
  553.     Unfortunately, a lot of gedcom files, and the resultant data
  554.     generated from them eats disk space.  Also the bigger the
  555.     collection, the more time it takes to manage it, so  be patient.
  556.     Matches are out there, and you might hit real pay dirt.  All the
  557.     demo files contain real matches that I found on the genserv system,
  558.     which is just a big collection, and other than big, is no different
  559.     than the one you are now thinking of gathering.
  560.  
  561. WHAT'S A GEDCOM FILE
  562.  
  563.     There are a lot of programs now that have the sole purpose of making
  564.     it easier to maintain genealogy information on your ancestors.  One
  565.     problem with them, is none of them store their data in the same format.
  566.  
  567.     How do you get data from your cousin back east who uses Roots, and
  568.     you use PAF?  The ancestor is a gedcom file.  All of the better programs
  569.     will read and write a gedcom file.
  570.  
  571.     It's merely an ascii file you can look at with any ascii editor, but
  572.     it is layed out in a strict set of rules that most of these programs
  573.     stick to.
  574.  
  575.     You can save all your ancestor information from Roots, or Brothers
  576.     Keeper to a gedcom file, and restore it all into Paf, etc.
  577.  
  578.     It is not designed to be used by a database management program to
  579.     maintain your ancestors information.  It would be extremely slow
  580.     for that purpose.
  581.  
  582.     It's designed to be a way to exchange information.
  583.  
  584. WHAT'S A SOUNDEX
  585.  
  586.     A soundex code is a way of representing a name that isn't to critical
  587.     about how the name is spelled.  It is an attempt to come up with
  588.     a number that represents how a name sounds.  If two names sound
  589.     close, in theory they should have the same soundex code.
  590.  
  591.     For example the surname Smith has a soundex code of S530.  The
  592.     surname Smyth has the same soundex code.
  593.  
  594.     Many times in genealogical work, you will find surnames spelled
  595.     slightly differently between generations, and when the spelling
  596.     skills of the ancestor were poor, even the ancestor would spell
  597.     his name several different ways.
  598.  
  599.     Soundex helps detect these slight variations, but of course when
  600.     working with those crazy humans, even soundex isn't enough.  A good
  601.     example is my Moberly ancestors who switch back and forth between
  602.     MOBERLY (M164) and MOBLEY (M140).  Gensrch will miss these. Sigh.
  603.  
  604. THE AUTHOR
  605.  
  606.     John Smith
  607.     28032 Singleleaf
  608.     Mission Viejo
  609.     California USA 92692
  610.  
  611.     jsmithii@netcom.com
  612.     johns@FileNet.com
  613.  
  614.  
  615.